Phân cụm phân cấp là gì? Các nghiên cứu khoa học liên quan

Phân cụm phân cấp là phương pháp học không giám sát xây dựng cấu trúc nhóm dạng cây để biểu diễn mức độ tương đồng của dữ liệu mà không cần xác định số cụm trước. Khái niệm này mô tả kỹ thuật phân cấp dựa trên ma trận khoảng cách và tiêu chí liên kết nhằm tạo dendrogram phản ánh mối quan hệ phân tầng giữa các điểm dữ liệu.

Khái niệm phân cụm phân cấp

Phân cụm phân cấp là một phương pháp học không giám sát xây dựng cấu trúc phân nhóm dạng cây để mô tả mối quan hệ giữa các đối tượng dựa trên mức độ tương đồng. Thay vì yêu cầu số cụm ngay từ đầu, phương pháp này tạo ra một hệ thống phân cấp theo nhiều lớp, trong đó các cụm nhỏ được hợp nhất thành cụm lớn hơn hoặc ngược lại tùy theo chiến lược thuật toán. Đặc điểm này giúp phân cụm phân cấp trở thành công cụ quan trọng trong phân tích dữ liệu mang tính phân tầng.

Phân cụm phân cấp dựa trên ma trận khoảng cách giữa các điểm dữ liệu và một tiêu chí liên kết quy định cách hai cụm được gộp lại. Sự linh hoạt này cho phép mô tả cấu trúc dữ liệu phức tạp mà các phương pháp như k-means không thể thể hiện. Một đặc điểm khác là khả năng biểu diễn toàn bộ quá trình phân nhóm thông qua sơ đồ dendrogram, giúp người dùng hiểu rõ lịch sử hình thành cụm và đưa ra quyết định cắt cụm hợp lý.

Phân cụm phân cấp có hai dạng chính: gộp (agglomerative) và tách (divisive). Phương pháp gộp bắt đầu với từng điểm riêng lẻ và hợp nhất dần, trong khi phương pháp tách đi từ một cụm lớn duy nhất và chia nhỏ dần. Bảng dưới đây mô tả sự khác biệt tổng quát:

Dạng phân cụm Quy trình Đặc điểm
Gộp Hợp nhất các cụm gần nhau nhất Phổ biến, dễ triển khai
Tách Tách cụm lớn thành các cụm nhỏ Độ chính xác cao nhưng tốn chi phí
Phương pháp gộp được sử dụng chủ yếu trong các thư viện học máy như Scikit-learn.

Các dạng phân cụm phân cấp

Hai dạng phân cụm phân cấp gồm phương pháp gộp và phương pháp tách, mỗi dạng có cách tiếp cận riêng đối với cấu trúc dữ liệu. Phân cụm gộp là quá trình lặp từng bước, trong đó mỗi điểm ban đầu được xem là một cụm độc lập và sau đó các cụm gần nhau nhất được hợp nhất. Quá trình tiếp tục cho đến khi tất cả điểm thuộc cùng một cụm. Đây là phương pháp phổ biến vì tính đơn giản, dễ áp dụng và khả năng xử lý dữ liệu kích thước trung bình.

Phân cụm tách hoạt động theo chiều ngược lại: bắt đầu với một cụm duy nhất chứa toàn bộ dữ liệu và phân tách dần thành các cụm nhỏ hơn theo tiêu chí sai khác tăng dần. Dù phương pháp tách mang tính mô tả tốt hơn và có thể tạo ra cấu trúc phân cấp tinh vi hơn, chi phí tính toán rất cao, thường vượt quá khả năng của hệ thống khi dữ liệu lớn. Điều này khiến nó ít được triển khai trong thư viện học máy hơn so với phương pháp gộp.

Các dạng phân cụm phân cấp còn có thể phân theo tiêu chí liên kết hoặc loại dữ liệu đầu vào. Danh sách dưới đây mô tả các phân nhóm thường gặp:

  • Phân cấp đơn liên kết: tập trung vào khoảng cách ngắn nhất.
  • Phân cấp hoàn liên kết: tập trung vào khoảng cách dài nhất.
  • Phân cấp trung bình liên kết: sử dụng khoảng cách trung bình.
  • Phân cấp dựa trên phương sai như Ward linkage.
Những biến thể này làm tăng tính linh hoạt của phương pháp phân cụm phân cấp trong nhiều lĩnh vực khoa học dữ liệu.

Khoảng cách và tiêu chí liên kết

Khoảng cách là yếu tố trung tâm trong phân cụm phân cấp vì nó xác định mức độ khác biệt giữa các điểm dữ liệu. Khoảng cách Euclid được sử dụng rộng rãi cho dữ liệu dạng số, trong khi khoảng cách Manhattan phù hợp với dữ liệu có cấu trúc lưới hoặc phân bố đều. Với dữ liệu văn bản hoặc dữ liệu đặc trưng vector hóa, khoảng cách Cosine được lựa chọn để đo mức độ tương đồng về hướng thay vì độ lớn.

Ma trận khoảng cách là đầu vào quan trọng nhất của thuật toán gộp. Giá trị trong ma trận này quyết định thứ tự cụm được hợp nhất và chiều sâu của dendrogram. Khi thay đổi thước đo khoảng cách, hình dạng phân cụm có thể thay đổi đáng kể. Vì vậy, lựa chọn thước đo phù hợp đóng vai trò quyết định trong phân tích dữ liệu.

Tiêu chí liên kết quy định cách tính khoảng cách giữa hai cụm. Một số phương pháp liên kết phổ biến:

  • Single linkage: chọn khoảng cách nhỏ nhất giữa các điểm thuộc hai cụm.
  • Complete linkage: chọn khoảng cách lớn nhất giữa hai cụm.
  • Average linkage: sử dụng giá trị trung bình của toàn bộ khoảng cách.
  • Ward linkage: tối thiểu hóa phương sai nội cụm, giúp tạo cụm đồng nhất.
Bảng sau minh họa đặc trưng của từng tiêu chí:
Tiêu chí liên kết Ưu điểm Nhược điểm
Single linkage Tìm cụm dạng chuỗi hiệu quả Dễ bị nhiễu và tạo cụm kéo dài
Complete linkage Tạo cụm nhỏ gọn Nhạy cảm với điểm ngoại lai
Average linkage Cân bằng giữa single và complete; Có thể làm mờ ranh giới cụm
Ward linkage Tối ưu hóa đồng nhất cụm Không phù hợp với dữ liệu không thuộc không gian Euclid

Cấu trúc dendrogram

Dendrogram là biểu đồ dạng cây mô tả quá trình gộp hoặc tách cụm, thể hiện mối quan hệ phân cấp giữa các điểm dữ liệu. Trục đứng của dendrogram biểu thị độ sai khác hoặc khoảng cách tại thời điểm cụm được hợp nhất. Khi một nhánh nằm ở độ cao lớn, điều đó cho thấy hai cụm được hợp nhất có mức độ khác biệt cao.

Dendrogram giúp phân tích cấu trúc dữ liệu theo nhiều tầng mức. Người dùng có thể chọn ngưỡng cắt để xác định số cụm phù hợp nhất mà không cần chỉ định trước. Tính trực quan của dendrogram hỗ trợ mô tả phân bố dữ liệu và phát hiện cấu trúc tiềm ẩn mà các phương pháp khác khó mô tả.

Các công cụ trực quan hóa dendrogram được tích hợp trong nhiều phần mềm phân tích dữ liệu, bao gồm môi trường MATLAB do MathWorks phát triển. Những công cụ này cho phép phóng to, thu nhỏ và đánh dấu các mức cắt, giúp cải thiện khả năng giải thích kết quả.

Thuật toán phân cụm phân cấp

Thuật toán phân cụm phân cấp gồm hai nhánh chính: gộp (agglomerative) và tách (divisive). Thuật toán gộp được sử dụng rộng rãi hơn vì tính đơn giản và khả năng hoạt động hiệu quả với quy mô dữ liệu vừa và nhỏ. Quy trình gộp bắt đầu bằng việc xem mỗi điểm dữ liệu là một cụm riêng biệt, sau đó tìm hai cụm gần nhau nhất theo ma trận khoảng cách và hợp nhất chúng lại. Sau mỗi lần hợp nhất, ma trận khoảng cách được cập nhật theo tiêu chí liên kết đã lựa chọn, tiếp tục cho đến khi toàn bộ dữ liệu thuộc một cụm duy nhất.

Thuật toán tách hoạt động ngược lại. Thay vì hợp nhất, nó bắt đầu với một cụm duy nhất chứa toàn bộ dữ liệu, sau đó tách cụm thành hai nhóm theo tiêu chí phân tách tối ưu. Quá trình lặp lại cho đến khi đạt số cụm mong muốn. Phương pháp tách mô tả cấu trúc phân cấp chi tiết hơn nhưng chi phí tính toán cao, thường tăng theo cấp số mũ khi kích thước dữ liệu tăng. Do đó, nó ít được sử dụng trong các ứng dụng yêu cầu tốc độ.

Thuật toán gộp có thể được biểu diễn bằng công thức cập nhật khoảng cách: d(Cnew,Ck)=f(d(Ci,Ck),d(Cj,Ck))d(C_{new}, C_k) = f(d(C_i, C_k), d(C_j, C_k)) Trong đó CnewC_{new} là cụm mới hình thành từ CiC_iCjC_j, và hàm ff phụ thuộc vào phương pháp liên kết. Bảng sau mô tả độ phức tạp tính toán của từng dạng:

Dạng thuật toán Độ phức tạp trung bình Ứng dụng
Gộp O(n² log n) Khoa học dữ liệu, sinh học phân tử
Tách O(2^n) Nghiên cứu chuyên sâu, dữ liệu nhỏ

Ưu điểm của phân cụm phân cấp

Phân cụm phân cấp mang lại khả năng mô tả sâu cấu trúc dữ liệu nhờ tạo ra hệ thống phân cấp đa tầng. Không giống như k-means, phương pháp này không yêu cầu xác định số cụm ban đầu, nhờ đó giúp việc khám phá dữ liệu trở nên linh hoạt hơn. Điều này đặc biệt hữu ích khi dữ liệu có cấu trúc phân bố phức tạp hoặc khi chưa có giả định rõ ràng về số cụm.

Dendrogram là một trong những ưu điểm nổi bật nhất của phương pháp phân cấp. Người dùng có thể trực tiếp quan sát mối quan hệ giữa các điểm dữ liệu, đánh giá độ tương đồng theo nhiều cấp độ và đưa ra quyết định cắt cụm hợp lý. Khả năng quan sát trực quan này giúp cải thiện phân tích thăm dò dữ liệu, hỗ trợ phát hiện các nhóm ẩn mà các thuật toán khác bỏ sót.

Phân cụm phân cấp cũng có độ ổn định tốt vì không phụ thuộc vào khởi tạo ngẫu nhiên. Điều này khác biệt với k-means vốn dễ bị ảnh hưởng bởi vị trí điểm khởi tạo. Ngoài ra, phân cụm phân cấp xử lý tốt dữ liệu không hình cầu, nơi các cụm có thể kéo dài hoặc phân tầng phức tạp. Một số ưu điểm có thể liệt kê:

  • Không yêu cầu xác định số cụm ban đầu.
  • Biểu diễn quan hệ phân cấp rõ ràng qua dendrogram.
  • Hoạt động ổn định với dữ liệu phức tạp.
  • Linh hoạt nhờ nhiều tiêu chí liên kết.

Nhược điểm của phân cụm phân cấp

Dù có nhiều ưu thế, phân cụm phân cấp cũng tồn tại những hạn chế đáng kể. Chi phí tính toán cao là một trong những điểm yếu lớn nhất, đặc biệt với bộ dữ liệu lớn. Việc tính toán ma trận khoảng cách kích thước n×n và cập nhật liên tục trong từng bước hợp nhất khiến thuật toán tiêu tốn nhiều tài nguyên bộ nhớ và thời gian. Điều này làm giảm hiệu quả khi triển khai trên hệ thống lớn hoặc trong xử lý dữ liệu thời gian thực.

Một nhược điểm khác là tính "không đảo ngược". Khi hai cụm đã được hợp nhất, thuật toán không thể sửa lại quyết định này ngay cả khi các bước tiếp theo cho thấy đó là lựa chọn sai. Điều này khiến kết quả dễ bị ảnh hưởng nếu có nhiễu hoặc điểm ngoại lai trong dữ liệu, đặc biệt với single linkage vốn dễ tạo ra hiệu ứng "chuỗi" kéo dài cụm không mong muốn.

Phân cụm phân cấp cũng khó xử lý dữ liệu không đồng nhất hoặc dữ liệu có kích thước rất lớn. Khi số chiều cao, thước đo khoảng cách có thể trở nên kém hiệu quả do ảnh hưởng của "lời nguyền chiều cao". Tóm lược hạn chế:

  • Chi phí tính toán và bộ nhớ lớn.
  • Không thể điều chỉnh sai sót trong quá trình gộp cụm.
  • Nhạy cảm với nhiễu khi dùng tiêu chí single linkage.
  • Hiệu suất giảm với dữ liệu nhiều chiều.

Ứng dụng của phân cụm phân cấp

Phân cụm phân cấp được ứng dụng rộng rãi trong khoa học dữ liệu, sinh học phân tử, phân tích thị trường, xử lý ngôn ngữ tự nhiên và khai phá dữ liệu. Trong sinh học phân tử, phương pháp này giúp phân tích dữ liệu gene, xây dựng cây phân loại sinh học và xác định quan hệ tiến hóa giữa các loài. Dendrogram hỗ trợ trực quan hóa mối quan hệ gene hoặc protein, cho phép phát hiện các nhóm chức năng.

Trong khoa học dữ liệu, phân cụm phân cấp là công cụ quan trọng trong phân tích khám phá (EDA). Nó giúp nhận diện cấu trúc ẩn trong dữ liệu trước khi áp dụng các thuật toán phức tạp hơn. Trong marketing, phương pháp này hỗ trợ phân nhóm khách hàng dựa trên hành vi mua sắm, giúp thiết kế chiến lược tiếp thị mục tiêu.

Phân cụm phân cấp cũng được sử dụng trong xử lý ngôn ngữ tự nhiên để phân nhóm văn bản, trích xuất chủ đề và phát hiện tài liệu tương đồng. Trong an ninh mạng, nó hỗ trợ phân tích mẫu log hệ thống để xác định các nhóm hành vi bất thường. Một số ứng dụng tiêu biểu:

  • Nhóm gene và protein trong sinh học phân tử.
  • Phân nhóm khách hàng trong thương mại.
  • Phân tích văn bản trong NLP.
  • Phân tích log và phát hiện bất thường trong an ninh mạng.

So sánh phân cụm phân cấp với các phương pháp khác

Phân cụm phân cấp thường được so sánh với k-means, DBSCAN và Gaussian Mixture Models (GMM). K-means có tốc độ nhanh hơn nhưng yêu cầu xác định số cụm trước và khó xử lý cụm không hình cầu. DBSCAN phát hiện tốt các cụm mật độ cao và điểm nhiễu nhưng hoạt động kém nếu mật độ cụm không nhất quán. GMM linh hoạt với dữ liệu phân bố phức tạp nhưng cần tối ưu nhiều tham số.

Phân cụm phân cấp không yêu cầu số cụm ban đầu, cung cấp cấu trúc phân cấp rõ ràng và hoạt động ổn định hơn. Tuy nhiên, chi phí tính toán lớn hạn chế khả năng mở rộng. Tùy vào dữ liệu và mục tiêu, phân cụm phân cấp có thể là bước khởi đầu tốt để khám phá cấu trúc trước khi áp dụng thuật toán nhanh hơn.

Bảng so sánh sau minh họa điểm khác biệt:

Thuật toán Ưu điểm Nhược điểm
Hierarchical Clustering Cấu trúc phân cấp trực quan, không cần số cụm Chi phí tính toán cao
K-means Nhanh, dễ mở rộng Cần số cụm trước, nhạy cảm với khởi tạo
DBSCAN Phát hiện nhiễu tốt, không cần số cụm Khó tối ưu tham số với dữ liệu không đồng nhất

Tài liệu tham khảo

Các bài báo, nghiên cứu, công bố khoa học về chủ đề phân cụm phân cấp:

Nồng độ và phân loại HCHs và DDTs trong đất từ hạ lưu sông Jiulong, Trung Quốc Dịch bởi AI
Frontiers of Environmental Science & Engineering - Tập 6 - Trang 177-183 - 2011
Đất là một nguồn quan trọng cho môi trường và các sinh vật khác về sự tích lũy sinh học của các loại thuốc trừ sâu hữu cơ clo (OCPs). Hai mươi bốn mẫu đất bề mặt đại diện đã được thu thập từ hạ lưu sông Jiulong, Trung Quốc, vào năm 2009. Nồng độ của các đồng phân hexachlorocyclohexane (HCHs) dao động từ 0,38 đến 39,52 ng·g−1, với giá trị trung bình là 9,51 ng·g−1. Nồng độ của dichlorodiphenyltrich... hiện toàn bộ
#HCHs #DDTs #thuốc trừ sâu hữu cơ clo #ô nhiễm đất #sông Jiulong #phân tích tương quan #phân tích cụm phân cấp.
Các đặc điểm vòng tròn của các con đường bão tại Philippines Dịch bởi AI
Spatial Information Research - Tập 30 - Trang 143-153 - 2021
Mục tiêu của bài báo này là khám phá các đặc điểm của các con đường bão tại Philippines bằng cách sử dụng Thống kê Hướng hoặc Thống kê Vòng tròn. Cụ thể, bài báo điều tra các phân bố vòng tròn của các biến thời gian và không gian của các cơn bão, bao gồm sự tương quan với các biến không vòng tròn như cường độ bão và áp suất khí quyển trung tâm tương ứng. Ngoài ra, hàm tự tương quan vòng tròn cũng ... hiện toàn bộ
#bão #thống kê vòng tròn #cường độ bão #áp suất khí quyển trung tâm #phân cụm phân cấp
So sánh thành phần các hợp chất bay hơi của 15 giống táo gai Trung Quốc khác nhau (Ziziphus jujuba Mill.) Dịch bởi AI
Springer Science and Business Media LLC - Tập 56 - Trang 1631-1640 - 2019
Chiết xuất từ quả táo gai (Ziziphus jujuba Mill.) đã được sử dụng phổ biến như một thành phần tạo hương vị do hương thơm độc đáo của nó. Trong nghiên cứu này, phương pháp chiết xuất vi thể pha rắn đã được sử dụng để chiết xuất các hợp chất bay hơi trong quả táo gai tươi, với sự trợ giúp của GC–MS để tách và xác định hóa học hơn nữa. Kết quả cho thấy, 33 hợp chất bay hơi, bao gồm aldehyde, alcohol,... hiện toàn bộ
#táo gai #Ziziphus jujuba #hợp chất bay hơi #chiết xuất vi thể pha rắn #phân tích cụm phân cấp #PCA
Hỗ trợ hiệu quả và tiết kiệm cho các thao tác roll-up và drill-down OLAP trên các chiều liên tục thông qua phân cụm phân cấp Dịch bởi AI
Journal of Intelligent Information Systems - Tập 44 - Trang 309-333 - 2013
Trong các hệ thống OLAP truyền thống, các thao tác roll-up và drill-down trên các khối dữ liệu khai thác các phân cấp cố định được định nghĩa trên các thuộc tính rời rạc, những thuộc tính này đóng vai trò là các chiều và hoạt động dọc theo chúng. Các kịch bản ứng dụng mới nổi, chẳng hạn như mạng cảm biến, đã kích thích nghiên cứu về các hệ thống OLAP, trong đó ngay cả các thuộc tính liên tục cũng ... hiện toàn bộ
So sánh đánh giá hai quy tắc dừng ưu việt cho phân tích cụm phân cấp Dịch bởi AI
Psychometrika - - 1994
Một quy tắc dừng kiểu lặp mẫu phân chia cho phân tích cụm phân cấp được so sánh với tiêu chí nội bộ đã được phát hiện là vượt trội bởi Milligan và Cooper (1985) trong so sánh 30 quy trình khác nhau. Số lượng và mức độ chồng lấp của các phân phối quần thể tiềm ẩn đã được thay đổi một cách có hệ thống trong đánh giá tính hợp lệ của quy tắc dừng hiện tại. Cả tỷ lệ cơ bản quần thể đồng đều và không đồ... hiện toàn bộ
Phân cụm dấu hiệu dựa trên kiến thức chuyên gia với các ràng buộc ở cấp độ thực thể Dịch bởi AI
Knowledge and Information Systems - Tập 63 - Trang 1197-1220 - 2021
Trong lĩnh vực khai thác quy trình, có nhiều phương pháp phân cụm dấu hiệu khác nhau nhằm phân chia các dấu hiệu hoặc các trường hợp quy trình thành các nhóm tương tự. Thông thường, việc phân chia này dựa trên một số mẫu hoặc sự tương đồng giữa các dấu hiệu, hoặc được dẫn dắt bởi việc phát hiện một mô hình quy trình cho mỗi cụm. Tuy nhiên, nhược điểm chính của các kỹ thuật này là giải pháp của chú... hiện toàn bộ
#khai thác quy trình #phân cụm dấu hiệu #ràng buộc cấp độ thực thể #kiến thức chuyên gia
Bằng chứng phân tử về chủng ‘N’ của virus khoai tây Y gây bệnh đốm trên ớt chỉ thiên (Capsicum annuum) tại Ấn Độ Dịch bởi AI
Indian Phytopathology - - 2023
Sự liên quan giữa nhiễm virus khoai tây Y với bệnh đốm trên ớt chỉ thiên đã được phát hiện trong một cuộc khảo sát quy mô nhỏ được thực hiện tại các quận Coimbatore thuộc bang Tamil Nadu. Các mẫu thực vật có triệu chứng rõ ràng của bệnh đốm đã được thu thập và thực hiện RT-PCR với primer suy biến của Potyvirus (PNIb1F & PCPR1) đặc hiệu cho các gen Nib và protein bao. Phân tích phân tử cho thấy vir... hiện toàn bộ
#virus khoai tây Y #bệnh đốm #ớt chỉ thiên #phân tử #Ấn Độ
Nên bơm nước biển từ độ sâu nào ở Biển Đông cho nghiên cứu y dược? Dịch bởi AI
Journal of Ocean University of Qingdao - Tập 12 - Trang 134-138 - 2013
Trong nghiên cứu này, nước biển được bơm lên từ độ sâu 150, 200, 300, 500 và 1000 m ở Biển Đông và được phân tích để xác định độ sâu nào nên bơm nước biển sâu (DSW) cho mục đích y dược. Độ sâu bơm DSW được xác định dựa trên các thành phần hóa học. Các phân tích về các nguyên tố vô cơ và chất hữu cơ hòa tan (DOM) được thực hiện bằng phương pháp quang phổ khối plasma cảm ứng (ICP-MS) và phương pháp ... hiện toàn bộ
#Biển Đông #nước biển sâu #nghiên cứu y dược #thành phần hóa học #phân tích cụm phân cấp #phân tích thành phần chính
Các yếu tố ảnh hưởng đến phát thải carbon dioxide: Nghiên cứu thực nghiệm sử dụng phương pháp phân cụm có phân cấp và không phân cấp Dịch bởi AI
Environmental and Ecological Statistics - Tập 27 - Trang 1-40 - 2019
Việc giảm thiểu phát thải CO2 đòi hỏi một nỗ lực toàn cầu với trách nhiệm chung nhưng khác biệt. Trong bài báo này, chúng tôi xác định các nhóm phát thải CO2 ở 72 quốc gia. Đầu tiên, bằng cách sử dụng phiên bản ngẫu nhiên của IPAT và áp dụng kỹ thuật hiệu ứng tương quan chung động, chúng tôi xác định ba yếu tố chính ảnh hưởng đến phát thải CO2 (năng lượng không tái tạo, dân số và GDP thực). Trong ... hiện toàn bộ
#phát thải carbon dioxide #phân cụm #tác nhân nhân khẩu học #GDP thực #chính sách môi trường
Phân tích sinh thái - địa lý về sự phân bố của Heracleum persicum, H. mantegazzianum, và H. sosnowskyi tại giới hạn phía Bắc của các vùng phân bố thứ cấp ở châu Âu Dịch bởi AI
Russian Journal of Biological Invasions - Tập 13 - Trang 203-214 - 2022
Bài báo này phân tích sự phân bố của hợp chất Heracleum persicum, H. mantegazzianum, và H. sosnowskyi tại giới hạn phía Bắc của các vùng phân bố thứ cấp ở châu Âu dựa trên dữ liệu gốc và dữ liệu đã công bố. Các hiện tượng H. persicum phía Bắc nhất được tìm thấy ở các khu vực ven biển ở phần phía Bắc và trung của bán đảo Scandinavia (đến 71° Bắc). Tại Fennoscandia, H. mantegazzianum và H. sosnowsky... hiện toàn bộ
Tổng số: 22   
  • 1
  • 2
  • 3